如何让影响因子走下神坛?科研评估应该使用这十个原则
原文以Bibliometrics: The Leiden Manifesto for research metrics为标题
发布在2015年4月22日的《自然》评论上
原文作者:Diana Hicks, Paul Wouters, Ludo Waltman, Sarah de Rijcke & Ismael Rafols
Diana Hicks, Paul Wouters及其同事督促使用十项原则来规范科研评估。
数据在科研管理中的应用日益增加。科研评价曾经是量身定制的,且由同行执行,但现在却成了依赖指标的例行公事。问题在于,数据取代人为判断,成了科研评价的主导因素。指标越来越多:它们的出发点往往是好的,但有时依据不足,且经常被错误运用。随着科研评价工作越来越多地由不了解良好的操作和指标阐释方法、也未获得相关建议的机构开展,这些原本旨在优化科研评价系统的工具正使我们面临着破坏系统的风险。
插图
David Parkins
2000年前,专家会使用光盘形式的美国科学信息研究所(ISI)科学引文索引(SCI)来进行专业分析。2002年,汤森路透公司上线了整合网页平台,大大方便了Web of Science数据库的使用。竞争对手随之而来:爱思唯尔的Scopus(2004年推出)和谷歌学术(测试版于2004年推出)先后上线。
基于网页的工具纷纷问世,它们能轻松比较机构的研究产出和影响,这些工具包括InCites(数据取自Web of Science)和SciVal(数据取自Scopus)等等。使用谷歌学术数据来分析个人被引情况的软件(如2007年发行的Publish or Perish)也出现了。
2005年,加州大学圣地亚哥分校的物理学家Jorge Hirsch提出了h指数,推广了统计研究者个人被引次数的做法。1995年以来,人们对期刊影响因子的兴趣也逐步增强(见“影响因子热”一节)。
近年来,与社会使用和在线评论相关的指标越来越受到重视:论文推荐平台F1000Prime于2002年成立;文献管理平台Mendeley上线于2008年;2012年,Altmetric.com成立。
科研评价指标滥用成灾,这让身为科学计量学家、社会科学家和科研管理人员的我们愈来愈担忧。以下案例只是沧海一粟。放眼世界,各个大学无不执着于自己的全球排名(例如上海软科和泰晤士报高等教育的世界大学排行榜),即使这样的排名在我们看来使用的是不准确的数据和武断的指标。
一些招聘人员要求职位申请人提供自己的h指数,一些学校根据h指数和发表在“高影响力”期刊上的文章数量来决定晋升人选。对研究人员来说,个人简历成了吹嘘成就的机会,生物医学领域尤为如此。导师在博士生还未达到一定水平之前,就催促他们在高影响力期刊上发表文章、申请科研经费,这一现象无处不在。
在北欧和中国,有些大学会根据数字来分配科研经费或奖金:比方说,根据个人的影响因子分数来决定“学术业绩资源”的分配,或者为在影响因子高于15的期刊上发表论文的研究人员发放奖金。
虽然大多数情况下,研究人员和评价人员仍然会做出公正的判断,但评价指标滥用问题十分普遍,已到了不容忽视的地步。
因此,我们提出了《莱顿宣言》,宣言成形并得名于2014年在荷兰莱顿举办的一次会议。尽管科学计量学家对这一宣言提出的十条原则并不陌生,但由于此前一直缺乏规范的条文阐述,至今还没有人完整列出过这些原则。
科学计量领域的先驱,比如Eugene Garfield(ISI的创始人)曾公开提出过其中几条原则。然而,科研评价人员需要向大学行政人员报告工作,但后者并不是相关方法的专家;先驱人物在这种情况下也无能为力。
科学家试图搜索文献来批驳某些评估,但会发现这些资料四散在自己无法访问的各类冷门期刊中。
对此,我们整理出了依据指标评估科研成果的最佳做法,依据这些做法,研究人员便能向评价人员问责,而评价人员也能让指标使用有据可循。
(1)量化评估也应当支持质化的专家评价。量化指标可以减少同行评议中的偏见倾向,促进更深入的思考;使用量化指标能提高同行评议的质量,因为在没有一系列相关信息的情况下评价同行的工作是非常困难的。但是,评估人员的判断不应让位于数字。指标不能取代有理有据的判断,每个人都需对自己的评估负责。
(2)科研成果评估应以机构、团队或研究人员个人的研究使命为基准。项目目标应在评估开始前阐明,所用指标也须与项目目标直接相关。指标的选择及使用方式应考虑到更广范围的社会经济与文化背景。
科学家们的研究任务是多种多样的。着眼于学术前沿发展的研究和致力于解决社会问题的研究有着截然不同的目标。评价也可基于科研成果对政策、行业或公众的影响,而不只是学术角度的优越性。没有哪个评估体系能适用所有情况。
(3)保护卓越的本地性研究。在很多地方,研究成果的杰出性等同于在英文期刊上发表论文。比方说,西班牙法律鼓励学者在高影响力英文期刊上发表论文。当期刊影响因子的计算依赖Web of Science,而这一平台基于美国,以英语期刊为主。这种偏见在社会科学和人文科学领域尤其成问题,因为这些的研究研究往往更关注本国和本地。其他领域也有这样的地区性或本国性课题,比如非洲撒哈拉以南地区的艾滋病流行病学研究。
为了创作出能受到高影响力期刊的青睐的论文,这种多元化和社会意义往往会被压抑;而高影响力期刊往往是英语期刊。在Web of Science中,被引用较多的西班牙社会学家研究往往是研究抽象模型或美国数据。社会学家在高影响力的西班牙语论文中体现出的对具体问题的关注——比如当地劳动法、老年人家庭保健和移民就业等等,并没有出现在英语期刊中。因此,我们需要基于高质量非英语期刊的指标,来评估和奖励卓越的本地性研究。
(4)数据收集和分析过程应公开、透明、简单。评估所需数据库的建立应遵循明确的规则,且在研究完成之前就制定好。在塑造了文献计量学评估方法的学界和业界机构中,这种做法已是管理惯例。来自这些机构的研究者还会引用发表在同行评议期刊中的实验方法,这样的透明度使得仔细审查成为了可能。举例来说,2010年,我们的团队(荷兰莱顿大学科技研究中心)所使用的一项重要指标的技术性质引发了广泛讨论,这一指标的计算随后得到了修正。近来的商业领域评估也应当遵循同样的标准;谁都不该接受黑箱式的评估机制。
简单的优点在于它能提高透明度。但简单的指标也可能会曲解真实情况(详见原则七)。评估人员必须在两者之间寻求平衡,用简单的指标体现复杂的研究过程。
(5)允许被评估人核验数据和分析。为确保数据质量,所有参与文献计量学研究的研究者都有权力核查自己的科研产出是否得到了准确地鉴定。在指导和管理评估的过程中,评估人员还应通过自验或第三方核验来确保数据的准确性。大学可以在自己的研究信息系统中采用这一原则,同时,这也应当成为筛选系统供应商时的指导原则。收集和处理准确、高质量的数据需要时间和资金,机构应为此留出充足的预算。
(6)考虑文章发表和引用时的学科差异。最好的办法是,选择一系列可行的指标,允许各学科从中采纳。几年前,一支欧洲历史学家团队在全国性同行评估中获得了较低的评分,因为他们将研究成果编纂成书,而未发表在Web of Science收录的期刊上。此外,他们的工作单位还不幸是心理学系。将书籍和本地语言期刊纳入评估范围是历史学家和社会学家的需要,计算机科学家则需要评估时将会议论文纳入考虑。
根据学科不同,论文的引用率也不同:数学学科顶级期刊的影响因子在3左右;细胞生物学顶级期刊的影响因子则高达30。因此,我们需要标准化的指标,而最稳健的标准方法是基于百分位数的形式:每篇论文的得分根据其在相关领域被引用次数的百分位数而定(比如前1%,10%或20%)。在使用百分位数方法时,一篇被引用次数极多的论文最多稍稍提高大学在排名中的位置;但若以引用均次来计算,这样的文章便能将大学排名从中等拉升到顶端。
(7)对学者个人的评估应以对其研究成果的质化判断为基础。随着年龄增长,研究者的h指数必然会提高,即便他们不再发表新论文也是如此。h指数因学科差异也有不同:生命科学家最高可达200,物理学家在100左右,社会科学家只有20-30。同时,这一指数也取决于数据库:有些计算机科学学者根据Web of Science数据的h指数为10左右,根据谷歌学术则为20-30。相较于依赖数字,阅读、评价学者的作品是更为公正的做法。就算是在比较众多学者时,最合适的方法也还是将每个人的专业、经验、活动和影响力等信息纳入考虑。
(8)避免乱用具体指标和虚假的准确性。科学和技术指标往往会出现概念模糊和不确定的情况,它们建立在很强的假设之上,但这些假设未必普遍适用。举例来说,引用次数到底意味着什么就是一个长期有争议的问题。因此,我们最好能使用多种指标,以保障评估体系的稳健和多元。如果不确定性和误差能被量化(比如绘制误差线),那么这一信息也应与指标值一同发表。
如果无法量化,那么指标制定人员至少应避免虚假准确性:举例来说,期刊影响因子是精确到小数后三位的,以防出现同一数值;但考虑到概念模糊性和引用次数的随机变化,一定要让两份影响因子极为相近的期刊一争高下是没有意义的。评估人员应避免虚假准确性;影响因子只需保留一位小数就够了。
(9)认识评估和指标的系统性影响。指标所确立的激励会改变系统,对此,相关人员应有所预料。这也就意味着一套指标总是优于单个指标,因为使用单个指标容易出现人为操控和目标置换(该指标成为了人们追求的目标)的问题。
举例来说,在上世纪90年代,澳大利亚政府根据一个主要基于高校发表论文数量的公式来拨发科研经费。据此政策,高校可以计算出在同行评议期刊上发表一篇论文的“价值”:在2000年,一篇论文可以换来800澳元科研经费。不出意料的是,澳大利亚学者的论文数量上去了,但多发表于引用次数不高的期刊,表明论文质量有所下降。
(10)定期审查指标并更新。科研任务和科研评估的目标在不断变化,与此同时,科研体系也在不断演进。曾经实用的指标可能不再适用,新指标应运而生。指标体系需要经过审查,甚至修改。在认识到指标体系太过简单后,澳大利亚政府在2010年推出了更加复杂的“澳大利亚杰出研究计划”,将重心放在科研成果的质量上。
依从这10大原则,科研评估便将在科研发展及其社会作用方面起到更重要的作用。单凭专家的个人经验,往往难以收集或理解科研指标所能提供的重要信息,但这些量化信息不能从工具变为科研的目标。
最佳科研评估应将数据稳健性与反映研究目标和性质的敏感性结合起来。量化指标和质化指标都很有必要,且各有自己的客观性。科研评价必须以依据优质数据的高质量方法为基础。ⓝ
Nature|doi:10.1038/520429a
点击“阅读原文”阅读英文原文
相关文章
影响因子存在局限性,应关注其他更全面的科研评估指标。
点击此处阅读:影响因子是有明显漏洞的机制,为何还有那么多聪明人崇拜它?
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2017 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved